# knowledge/processors/__init__.py

"""
知识库文档处理器模块
负责文档扫描、加载和预处理
"""

from knowledge.processors.kb_document_processor import KBDocumentProcessor

__all__ = [
    "KBDocumentProcessor",
]

class DocumentLoadError(Exception):
    """文档加载异常"""
    pass

class UnsupportedFileTypeError(Exception):
    """不支持的文件类型异常"""
    pass

class DocumentProcessingError(Exception):
    """文档处理异常"""
    pass

# 支持的文档类型
SUPPORTED_EXTENSIONS = {
    '.pdf': 'PDF文档',
    '.txt': '文本文件', 
    '.md': 'Markdown文档',
    '.markdown': 'Markdown文档',
    '.jsonl': 'JSON Lines文件',
    '.doc': 'Word文档',
    '.docx': 'Word文档',
    '.ppt': 'PowerPoint文档',
    '.pptx': 'PowerPoint文档',
    '.xls': 'Excel文档',
    '.xlsx': 'Excel文档',
}

# 导出常量
__all__.extend([
    "DocumentLoadError",
    "UnsupportedFileTypeError", 
    "DocumentProcessingError",
    "SUPPORTED_EXTENSIONS",
])

# print("✅ 知识库文档处理器模块已加载")
